热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

生产线|门槛_华为云数据治理生产线DataArts,让“数据‘慧’说话”

篇首语:本文由编程笔记#小编为大家整理,主要介绍了华为云数据治理生产线DataArts,让“数据‘慧’说话”相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了华为云数据治理生产线DataArts,让“数据‘慧’说话”相关的知识,希望对你有一定的参考价值。




摘要:数据治理生产线DataArts改变了传统“人拉肩抗”的数据处理方式,帮助提升效率;降低技术门槛,让“人人都是分析师”;让“数据‘慧’说话”,驱动高效决策。

本文分享自华为云社区《【大厂内参】第15期:华为云数据治理生产线DataArts,让“数据‘慧’说话”》,作者: 华为云社区精选。

当下我们已经进入到了数字经济时代。数据作为一种新型生产要素写入《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》文件中,与土地、劳动力、资本、技术等传统要素并列为要素之一。

数字经济已经渗透到各行各业,正在引领新经济发展,数字经济覆盖面广且渗透力强,与各行业融合发展,预计到2025年产业数字化机会将达到23万亿美元规模。

所有的企业必须进行数字化转型,才能适用时代的发展。随着数字化转型的深入,数据作为核心资产要驱动业务和释放价值,需要:


  • 能进得来,各种大量、多样性、实时的数据源能被高效集成;
  • 能放得下,海量数据长期存储的性价比高,不用做各种模式转换,易于分析计算;
  • 能理得清,基于业界最佳实践建模,数据之间的关系清晰可见,含义简单易懂,质量问题及时发现;
  • 能找得快,迅速找到需要的是数据资产,能快速分析出价值;
  • 能用得好,数据价值显性化,快速响应业务需求,驱动经营完善。

企业数字化转型升级的三大要求:数据智能体验、数据智能决策、数据智能流程。但是要想实现数据的智能化,企业也面临着非常多的挑战:


  • 数据治理难:从数据到支撑业务的资产,传统数据库、数仓建模和知识图谱等技术无法满足企业全业务流程分析和决策需求,导致难以管理和分析海量异构数据,治理好的数据也难以和应用有效融合;
  • 众多的系统和复杂的架构:随着业务成长,需要管理众多系统如湖、仓、AI等;
  • 技术门槛高:大多数企业缺乏大数据相关人员,研发效率低,维护成本高。

为解决数据治理难、技术门槛高、众多的系统和复杂的架构三大挑战,让数据释放价值,华为云推出了 数据治理生产线DataArts。


1.DataArts使能数据治理向自动化、智能化升级

所谓数据生产线,顾名思义,就像生产线一样,把海量的复杂的无序的数据,生产成为清洁透明高质量的数据能源,输送给业务。

华为云数据治理生产线DataArts可以帮助企业解决数据智能化面临的三大挑战,让数据发挥价值,并能完美契合企业数据治理的核心诉求。数据治理生产线​DataArts主要包含两大部分:


  • DataArts LakeFormation:负责整合所有云原生数据湖的组建工作,统一管理一系列数据引擎的源数据,方便上层开发者使用。
  • DataArts Studio:面向数据域的开发者、管理者、架构师,涵盖数据生产、处理、使用的全流程生命周期,帮助开发者系统管理和使用数据。

数据治理生产线DataArts可以帮助企业的数据源进行:数据接入、数据开发、数据治理、数据资产、数据服务、数据安全、数据共享,最终转化成为数据应用。就像生产线一样,能够把海量复杂,无序数据,转化成为高质量的数据能源并输送给业务,实现数据驱动、实时决策。

数据治理生产线DataArts能够帮助数据实时入湖,进行分析处理;具备AI能力,其中AutoETL能够实现数据的准备,自动化标准和质量稽核,实现智能数据治理;拥有全链路安全管理能力,能够保护好用户的隐私数据,对数据进行合规性审计;帮助企业沉淀数据资产,发挥数据价值,实现业务的创新与发展。

总的来说,数据治理生产线DataArts改变了传统“人拉肩抗”的数据处理方式,帮助提升效率;降低技术门槛,让“人人都是分析师”;让“数据‘慧’说话”,驱动高效决策。

在技术架构方面, DataArts不仅支持OLAP数据仓库及大数据分析平台,还支持OLTP事务性数据库。DataArts具备丰富的集成工具,支持将结构化、半结构化、非结构化的数据,即可以实时数据同步入湖,也支持高效的批量数据集成。

DataArts的核心产品:DataArts Studio。 它是从数据集成到开发、治理、服务一站式端到端的平台。支持数据工程师高效数据开发,也支持不懂数据开发和数据分析的业务人员,通过No Code的方式进行数据的准备和处理。让数据治理成为全民都可以参与的数据工作。


2.DataArts5大新特性面面观

2.1 元数据自动发现和表格化存储

数据入湖过程中,自动元数据发现和表格化存储,便于数据的搜索、计算和分析:


  • 支持OBS、HDFS/SFTP、Kafka、REST等数据存储上的文件、消息元数据自动发现;
  • 自定义分类器,支持CSV、JSON、文本、Parquet、ORC、Hudi等半结构化数据进行Schema自动模式推断和提取;
  • 构建表、字段、分区,并感知其变化等元数据信息,便于数据的搜索、计算和分析。

2.2 智能增强的AutoETL能力

智能增强的AutoETL能力,数据准备效率提升20%:


  • 融合code模式与no-code模式:支持No-code模式开发流/批数据处理作业,作业节点数量降低20%,数据作业开发效率由天级别降到小时/分钟级别;
  • 丰富的数据处理算子库:支持清洗、过滤、合并、Join等数据处理类别10+,算子数量200+。

2.3 智能增强的数据异常检测

智能增强的数据异常检测,万张表扫描速度提升5倍,提升数据质量稽核效率:


  • 通过模糊索引、模式挖掘等方法发现潜在重复数据区块;
  • 通过相似性对比检查数据的语法差异,以及领域知识库的实体解析检查数据的语义差异;
  • 支持实时采样计算数据质量预览,支持高性能扫描计算数据质量,万张表扫描速度提升5倍。

2.4 企业级数据目录

企业级数据目录,像搜索引擎一样搜索和管理数据资产:


  • 企业级数据目录 面向多云多Region逻辑数据湖的统一数据目录,技术元数据自动同步更新,并与业务元数据和管理元数据信息关联;
  • 自然语义搜索,智能推荐 支持以自然语言搜索数据资产,并智能给出搜索建议、资产推荐和排序;
  • 360全景“实体-关系”知识图谱 自动发现数据联系。智能导航,路径分析、社群分析等高级图分析,1W+点图分析响应时间200ms以内。

2.5全链路数据安全保护

全链路数据安全保护,中心化安全策略治理,智能识别隐私数据:


  • 中心化数据安全治理,支持企业实现企业数据安全策略统一管控;
  • 智能数据安全:内置GDPR安全规则库、支持数据访问权限控制、敏感数据自动识别,智能数据保护(加密、脱敏、水印);
  • 全链路数据安全保障,数据集成、传输、存储、数据架构设计、开发准备、资产搜索、服务开放等全链路都集成了数据安全能力。

在生态开发方面,华为云的云原生集成数据管理生态产品将持续增强DataArts:


  • 面向生态开放,引入BI、主数据、数据建模、数据标签等数据管理行业TOP伙伴SaaS产品,并与数据治理生产线的DataArts Studio、Lakeformation等云原生服务集成,为客户提供一致性体验
  • 伙伴产品与华为云“联营联运”,支持客户一键购买开通,以及按需订阅消费

目前, 数据治理生产线DataArts在华为内外部有丰富的实践。在内部,基于DataArts,华为生产出10多万个高质量的数据资产;在华为外部,DataArts服务了1000家以上的政企客户,每天有千万级数据任务在云上DataArts运行。


3.华为云DataArts帮助企业快速构建数字化运营能力

安永主要有审计、咨询、税务和战略与交易四大核心业务,其中咨询服务提供从业务规划、解决方案设计与实施,到业务运营的全方位端到端服务,以实现客户理念落地。

华为&安永联合解决方案融合了华为数字技术的优势和安永对业务洞察的深入理解。基于先进的华为云平台和健全的数据管理体系,实现数据资产化、完善数据运营体系,为多业务场景赋能,提供数字化转型支撑。

安永基于联合解决方案在为某集团数字化生产中心提供服务的过程中,通过完成生产关键设备数据、环境信息的采集、基于ROMA实现各系统间数据分发,实现结构化、非结构化、实时、离线数据集成并构建大数据平台,通过DataArts Studio和DWS实现各类数据的整合处理,形成企业级数据底座。基于大数据平台数据实时分析能力,实现生产实时预警及监控,基于大数据平台支持BI企业综合营运分析和领导决策支持。

数据使能技术架构

为了让用户更好的体验一站式数据治理服务,DataArts Studio接下来将会有新特性发布,主要体现在:编辑器优化、团队协作增强、调度引擎升级、图形化运维。


  • 编辑器优化:更丰富的语法联想、快速补全SQL,自动格式优化;异常关闭脚本可恢复,防止代码丢失;支持全库代码检索。
  • 团队协作增强:作业和脚本的多版本管理,生产与开发环境隔离审核;多人开发抢锁、解锁机制,防止意外覆盖;跨空间依赖,方便多部门协作。
  • 调度引擎升级:调度机制优化,支持自然周期核心调度;调度性能升级,支持千万级/日任务调度。
  • 图形化运维:作业依赖关系自动解析,图形化展示作业依赖树;DAG图形化运维,集中查看上下游的作业和运行结果、日志提高问题定位效率。

最后

面对数字化时代大潮,制造企业数据资产越来越重要,数字化转型迫在眉睫。但数字化转型道阻且长,而且数据繁多不好处理,制造业亟需上云构建企业数据资产,华为云数据治理生产线DataArts利用已有的策略、技术和经验,将持续赋能制造企业实现数据治理和资产沉淀,为制造业数字化转型和智能化升级提速。

点击关注,第一时间了解华为云新鲜技术~

 


推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展,企业IT系统的快速发展使得数据成为企业业务增长的新动力,但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题,并提出了解决方案,包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外,本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍,读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ... [详细]
  • 本文详细介绍了MysqlDump和mysqldump进行全库备份的相关知识,包括备份命令的使用方法、my.cnf配置文件的设置、binlog日志的位置指定、增量恢复的方式以及适用于innodb引擎和myisam引擎的备份方法。对于需要进行数据库备份的用户来说,本文提供了一些有价值的参考内容。 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • 本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面,并总结了项目存在的问题,如前后端未分离、代码混乱等。作者表示希望通过记录和规划,能够理清思路,进一步完善该平台。 ... [详细]
  • 本文讨论了在数据库打开和关闭状态下,重新命名或移动数据文件和日志文件的情况。针对性能和维护原因,需要将数据库文件移动到不同的磁盘上或重新分配到新的磁盘上的情况,以及在操作系统级别移动或重命名数据文件但未在数据库层进行重命名导致报错的情况。通过三个方面进行讨论。 ... [详细]
  • Linux如何安装Mongodb的详细步骤和注意事项
    本文介绍了Linux如何安装Mongodb的详细步骤和注意事项,同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库,适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作,能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]
  • MyBatis多表查询与动态SQL使用
    本文介绍了MyBatis多表查询与动态SQL的使用方法,包括一对一查询和一对多查询。同时还介绍了动态SQL的使用,包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • 本文介绍了sqlserver云存储和本地存储的区别,云存储是将数据存储在网络上,方便查看和调用;本地存储是将数据存储在电脑磁盘上,只能在存储的电脑上查看。同时提供了几种启动sqlserver的方法。此外,还介绍了如何导出数据库的步骤和工具。 ... [详细]
  • 在Oracle11g以前版本中的的DataGuard物理备用数据库,可以以只读的方式打开数据库,但此时MediaRecovery利用日志进行数据同步的过 ... [详细]
  • 从Oracle安全移植到国产达梦数据库的DBA实践与攻略
    随着我国对信息安全和自主可控技术的重视,国产数据库在党政机关、军队和大型央企等行业中得到了快速应用。本文介绍了如何降低从Oracle到国产达梦数据库的技术门槛,保障用户现有业务系统投资。具体包括分析待移植系统、确定移植对象、数据迁移、PL/SQL移植、校验移植结果以及应用系统的测试和优化等步骤。同时提供了移植攻略,包括待移植系统分析和准备移植环境的方法。通过本文的实践与攻略,DBA可以更好地完成Oracle安全移植到国产达梦数据库的工作。 ... [详细]
  • 本文介绍了一种轻巧方便的工具——集算器,通过使用集算器可以将文本日志变成结构化数据,然后可以使用SQL式查询。集算器利用集算语言的优点,将日志内容结构化为数据表结构,SPL支持直接对结构化的文件进行SQL查询,不再需要安装配置第三方数据库软件。本文还详细介绍了具体的实施过程。 ... [详细]
  • 一次上线事故,30岁+的程序员踩坑经验之谈
    本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间,作为一个在线医疗项目,他们进行了优惠折扣活动的升级改造。然而,在上线前的最后一天,由于大量数据请求,导致部分接口出现问题。作者通过部署两台opentsdb来解决问题,但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]
  • MySQL多表数据库操作方法及子查询详解
    本文详细介绍了MySQL数据库的多表操作方法,包括增删改和单表查询,同时还解释了子查询的概念和用法。文章通过示例和步骤说明了如何进行数据的插入、删除和更新操作,以及如何执行单表查询和使用聚合函数进行统计。对于需要对MySQL数据库进行操作的读者来说,本文是一个非常实用的参考资料。 ... [详细]
author-avatar
爱到最后还是分离_851
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有